การวิเคราะห์ทางเทคนิค TAS-CSW-DC

สรุปภาพรวมสุขภาพและประสิทธิภาพของสวิตช์

รุ่นอุปกรณ์

C9300-24UX

เวอร์ชันซอฟต์แวร์

17.15.03

หมายเลขซีเรียล

FCW2315L091

Uptime

5W 6D 17H

ภาพรวมสุขภาพระบบ

อุปกรณ์ TAS-CSW-DC โดยรวมมีเสถียรภาพในการทำงาน การใช้งานทรัพยากร CPU และหน่วยความจำอยู่ในเกณฑ์ปกติสำหรับการทำงานทั่วไป การรีโหลดครั้งล่าสุดเกิดจากการสั่งงานของผู้ดูแลระบบ ซึ่งเป็นการบำรุงรักษาตามแผน

การใช้งาน CPU เฉลี่ย

การใช้งาน CPU สูงชั่วขณะ (5 วินาที) เกิดจากการรันคำสั่ง `show tech-support`

การใช้งานหน่วยความจำ DRAM

การใช้งานหน่วยความจำ TMPFS

สถานะทรัพยากรและระบบ

Control Processor: Healthy ✅

DRAM: Healthy ✅

TMPFS: Healthy ✅

สาเหตุรีโหลดล่าสุด: Reload Command

อินเทอร์เฟซสำคัญ: การเชื่อมต่อและข้อผิดพลาด

การตรวจสอบอินเทอร์เฟซพบประเด็นสำคัญหลายประการที่อาจส่งผลต่อประสิทธิภาพเครือข่าย โดยเฉพาะอย่างยิ่งปัญหา output drops และ input errors บางประเภท

Output Drops สูง: ผลกระทบจาก QoS

อินเทอร์เฟซจำนวนมากที่ใช้นโยบาย QoS `WEBUI-QUEUING-OUT` มีจำนวน output drops สูง แสดงถึงความแออัดหรือนโยบายที่เข้มงวดเกินไป

Input Errors: "Giant" Frames

อินเทอร์เฟซ Te1/0/3 (ONT-AIS) และ Te1/0/10 (PA440-WAN1AIS) แสดงข้อผิดพลาด "giant" ซึ่งชี้ไปที่ปัญหา MTU mismatch ที่อาจเกิดขึ้น

Te1/0/3 "Giants"

98

Te1/0/10 "Giants"

98

Unknown Protocol Drops

พบใน Uplinks และการเชื่อมต่อ ESXi hosts อาจบ่งชี้เฟรมที่ไม่เป็นมาตรฐาน:

  • Te1/1/4 (C220M3-ESXi-H1): 253,541 drops
  • Te1/1/3 (C220M3-ESXi-H2): 180,035 drops
  • Te1/1/2 (C220M3-ESXi-H3): 21,033 drops
  • Te1/0/12, Te1/0/13: เล็กน้อย

ไฮไลท์การตั้งค่า Layer 2

การกำหนดค่า Layer 2 มีส่วนสำคัญต่อเสถียรภาพและความปลอดภัยของเครือข่าย บางการตั้งค่าควรได้รับการทบทวนเพื่อแนวปฏิบัติที่ดีที่สุด

EtherChannel Po10

โหมดการทำงาน: ON ⚠️

แนะนำให้ใช้ LACP (เช่น mode active) เพื่อการเจรจาและการตรวจจับข้อผิดพลาดที่ดีกว่า

Spanning Tree Protocol (STP)

VLAN ที่ปิด STP: จำนวนมาก ⚠️ (เช่น 2-69, 97-98)

การปิดใช้งาน STP จำเป็นต้องมีการตรวจสอบโครงสร้าง Layer 2 อย่างละเอียดเพื่อป้องกัน Loop

ความซับซ้อนของการกำหนดเส้นทาง Layer 3

อุปกรณ์มีการใช้งาน Policy-Based Routing (PBR) อย่างกว้างขวาง ซึ่งเพิ่มความยืดหยุ่นแต่ก็เพิ่มความซับซ้อนในการจัดการ

Policy-Based Routing (PBR)

มีการใช้งาน Route-Maps จำนวนมากสำหรับ PBR

ตัวอย่าง Route-Maps ที่สำคัญ:

  • TAS: ใช้กับหลาย VLAN (70, 74, 90, 101-105), next-hops หลากหลาย
  • VLAN40: next-hop 192.168.0.6
  • CCTV (Vlan130): next-hop 192.168.0.2
  • TAS-PALO (Vlan500): next-hop 192.168.0.7

ความซับซ้อนนี้อาจทำให้การแก้ไขปัญหายากขึ้น ควรทบทวนความจำเป็น

การ Redistribution ในโปรโตคอล Routing

มีการใช้ `redistribute connected` ทั้งใน OSPF และ BGP

ควรตรวจสอบเพื่อให้แน่ใจว่ามีการประกาศเฉพาะเครือข่ายย่อยที่ต้องการ เพื่อป้องกันการกำหนดเส้นทางที่ไม่เหมาะสม

ภาพรวมความปลอดภัย

การกำหนดค่าความปลอดภัยมีการใช้ AAA และ ACLs อย่างเหมาะสม แต่บางส่วนมีความซับซ้อนที่ควรพิจารณา

AAA Configuration

TACACS+ (ISE) ✅

มีการยืนยันตัวตนและการอนุญาตจากส่วนกลาง พร้อม local fallback เป็นแนวปฏิบัติที่ดี

ACL `TAS`

มีความละเอียดสูง

มีการปฏิเสธ IP โฮสต์เฉพาะจำนวนมาก อาจจัดการได้ยากในระยะยาว

ACL `Guest` (Vlan500)

มีการแบ่งแยกเครือข่ายที่ดี

อนุญาต DNS/DHCP, จำกัดการเข้าถึงภายใน และอนุญาตการเข้าถึงอินเทอร์เน็ต

นโยบาย QoS: `WEBUI-QUEUING-OUT`

นโยบายนี้ถูกนำไปใช้กับหลายอินเทอร์เฟซและเป็นสาเหตุหลักของ output drops โดยจะจัดลำดับความสำคัญและจัดสรรแบนด์วิดท์ให้ทราฟฟิกประเภทต่างๆ

ภาพรวมการทำงานของ Policy Map `WEBUI-QUEUING-OUT`

ทราฟฟิกขาเข้าอินเทอร์เฟซ
การจำแนกประเภททราฟฟิกตาม DSCP

Priority L1 (Voice - EF)

แบนด์วิดท์ 1%

Priority L2 (Broadcast Video - CS4, AF4x, CS5)

แบนด์วิดท์ 30%

คลาสอื่นๆ

แบ่งปันแบนด์วิดท์ตาม % ที่กำหนด

การจัดการคิว

Queue-buffers, Queue-limits

Output Drops 발생 ⚠️

เมื่อคิวเต็มหรือเกินขีดจำกัดแบนด์วิดท์

ทราฟฟิกขาออก

Output drops ที่สูงบ่งชี้ว่านโยบายอาจเข้มงวดเกินไปสำหรับปริมาณงานจริง หรือการทำเครื่องหมาย DSCP ไม่สอดคล้อง หรือลิงก์อาจมีขนาดเล็กเกินไป

สถานะใบอนุญาตและการโฮสต์แอปพลิเคชัน

การตรวจสอบใบอนุญาต Smart Licensing และการใช้งานทรัพยากรสำหรับ Application Hosting

Smart Licensing

สถานะ Product Instance: NOT INSTALLED ⚠️ (อาจเป็นปัญหาการแสดงผล)

สถานะ Network Advantage: IN USE ✅

สถานะ DNA Advantage: IN USE ✅

การเชื่อมต่อ CSSM: สำเร็จ ✅ (Last ACK: 15 พ.ค. 2025)

"NOT INSTALLED" อาจเป็นปกติในโหมด Policy หากสิทธิ์ใช้งานถูกต้อง

Application Hosting (`tas` - ThousandEyes)

CPU Quota (25%)

Memory Quota (2048MB)

ทรัพยากร CPU และ Memory ที่จัดสรรไว้สำหรับ Application Hosting ถูกใช้งานหรือสงวนไว้จนเต็มโดยแอปพลิเคชัน `tas`

สถานะ Redundancy

โหมดการทำงานปัจจุบัน

Non-Redundant / Simplex ⚠️

แม้จะกำหนดค่าสำหรับ SSO แต่ Peer ถูกปิดใช้งานหรือไม่มีอยู่ ทำให้อุปกรณ์เป็น Single Point of Failure

ข้อค้นพบและข้อเสนอแนะสำคัญ

ประเด็นสำคัญที่ควรได้รับการตรวจสอบและดำเนินการเพื่อปรับปรุงประสิทธิภาพและความเสถียรของระบบ:

⚠️

ตรวจสอบและปรับแต่ง QoS (`WEBUI-QUEUING-OUT`)

แก้ไขปัญหา output drops สูงโดยการประเมินและปรับพารามิเตอร์ QoS หรือตรวจสอบการทำเครื่องหมาย DSCP และความจุของลิงก์

⚠️

แก้ไขข้อผิดพลาด "Giant" Input Errors

ตรวจสอบและแก้ไขปัญหา MTU mismatch ที่อาจเกิดขึ้นบนอินเทอร์เฟซ Te1/0/3 และ Te1/0/10 ที่เชื่อมต่อกับ AIS และ Palo Alto Networks

⚠️

พิจารณาสถานะ Non-Redundant

หากต้องการ Redundancy ให้แก้ไขปัญหาการเชื่อมต่อและการกำหนดค่าของสวิตช์คู่ค้า เพื่อลดความเสี่ยงจาก Single Point of Failure

💡

ทบทวนความซับซ้อนของ PBR และ EtherChannel

ประเมินความจำเป็นของกฎ PBR ที่ซับซ้อน และพิจารณาเปลี่ยน Po10 ไปใช้ LACP เพื่อเพิ่มความเสถียร

💡

ตรวจสอบทรัพยากร Application Hosting

ประเมินประสิทธิภาพของแอปพลิเคชัน `tas` และวางแผนการจัดสรรทรัพยากรหากต้องการความจุเพิ่ม